检索结果

期刊

出版年

关键词

Please wait a minute...

选择:

导出引用
EndNote Ris BibTeX

显示/隐藏图片

Select

基于HTML结构特征的网页信息提取

胡瑜,王立志

辽宁石油化工大学学报 2009, 29 (3): 65-69.

摘要（391）

PDF （243KB）（252）

Web上的信息很多存储在HTML 页面上,传统的网页数据抽取方法是使用包装器(Wrapper)来抽取
网页中感兴趣的数据。包装器所需的信息模式识别知识的获取是一个费时费力且需要较高智能的工作。避开了使
用Wrapper,针对新闻类网页的结构特点,从视觉角度对网页页面空间的构成进行了噪声与信息实体的划分与判断。
讨论了一种根据新闻类网页层次结构和各层节点统计信息进行新闻主体提取的方法。改进了传统的DOM 模型,增
加了层次与样式等属性作为噪声判断的依据,并对其节点添加了统计信息,利用新闻的标题、时间等外显特性,提出
并实现了一种结合正向直接抽取与反向降噪抽取新闻类网页得到结构化数据的方法。实验结果表明,用这种方法
进行新闻类网页主体信息提取的有效性。